18. 有限 MDP
有限 MDP
请使用 此链接 获取 OpenAI Gym 中的可用环境。
环境索引为 环境 ID ,每个环境都有对应的 观察空间 、 动作空间 、 奖励范围 、 tStepL 、 Trials 和 rThresh 。
CartPole-v0
在表格中查找对应于
CartPole-v0
环境的行。请记下相应的
观察空间
(
Box(4,)
) 和
动作空间
(
Discrete(2)
)。
正如在 OpenAI Gym 文档 中所描述的情况:
每个环境都有第一类
Space对象,描述了有效的动作和观察结果。
Discrete空间允许存在固定范围的非负数。Box空间表示 n 维方框,因此有效动作或观察结果将是一个有 n 个数字的数组。
观察空间
CartPole-v0 环境的观察空间有一个笔误:
Box(4,)
。因此,在每个时间点的观察结果(或状态)是有 4 个数字的数组。你可以在
此文档
中查看每个数字表示的含义。打开该页面后,向下滚动到观察空间的说明部分。
注意 购物车速度 和 杆子顶端速度 的最小值 (-Inf) 和最大值 (Inf)。
因为数组中的条目对应的每个索引可以是任何实数,所以状态空间 \mathcal{S}^+ 是无限的!
动作空间
CartPole-v0 环境的动作空间类型为
Discrete(2)
。因此,在任何时间点,智能体只能采取两个动作。你可以在
此文档
(注意,和查找观察空间使用的文档一样!)中查看每个数字表示的含义。打开该页面后,向下滚动到动作空间的说明部分。
在这种情况下,动作空间 \mathcal{A} 是一组有限的集合,仅包含两个元素。
有限 MDP
记得在上个部分,我们提到:在有限的 MDP 中,状态空间 \mathcal{S} (或在阶段性任务中为 \mathcal{S}^+ )和动作空间 \mathcal{A} 必须都是有限的。
因此,虽然 CartPole-v0 环境的确指定了 MDP,它没有指定 有限的 MDP。在这门课程中,我们将重点讲解有限 MDP 的解决方法。
你在这门课程中将解决的环境为:
- FrozenLake-v0
- Blackjack-v0
- CliffWalking-v0 ( 注意:此环境可能没有列在环境表格中 )
- Taxi-v2
如果你愿意的话,可以现在花时间详细了解这些环境。检查确保每个环境都指定 有限的 MDP。